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基于 关键 帧 节点 自 适 应 分 区 与 关联 的 行为 识别 算法 
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摘 要: 基于 视频 的 人 体 行为 识别 任务 中 由 于 大 部 分 画面 并 不 包含 重要 的 判别 信息 ， 这 对 识别 应 用 的 准确 性 造成 严 
重 干扰 。 关 键 姿 态 帧 既 能 表达 视频 又 能 降低 计算 量 ， 且 骨骼 数据 相 比 于 图 像 包 人 钨 更 多 维度 的 信息 。 因 此 ， 提 出 一 种 
基于 关键 帧 骨骼 节点 自 适应 分 区 与 关联 的 行为 识别 算法 。 首 先 构 建 自 适应 池 化 深度 网 络 以 评估 帧 的 重要 性 获取 关键 
姿态 帧 序列 ; 其 次 通过 节点 自学 习 模 型 建立 非 自 然 连 接 状态 下 的 节点 间 关 联 ; 最 后 将 改进 的 时 空 信息 应 用 于 STGCN 
并 使 用 SoftMax 分 类 识别 。 在 开源 的 大 规模 数据 集 NTU-RGB+D £e Kinetics 上 与 几 种 典型 技术 进行 比 对 ， 验 证 了 所 
提 方 法 在 减少 宛 余数 据 量 的 同时 能 保留 关键 动作 信息 ， 且 动作 识别 准确 率 平均 提高 了 0.63%~11.81%。 

关键 词 : 行为 识别 ; 关键 姿态 ; 自 适应 ; 节点 关联 ; STGCN 
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Action recognition based on adaptive partition and association of key-frame nodes 


Liu Suolan'?, Tian Zhenzhen!, Gu Jiahui!, Zhou Yuejing! 
(1. School of Computer& Artificial Intelligence, Changzhou University, Changzhou Jiangshu 213164, China; 2. Jiangsu Key 
Laboratory of Social Security Image & Video Understanding, Nanjing University of Science & Technology, NanJing 210094, 
China) 


Abstract: In the task of human behavior recognition, most of the video frames do not include important discrimination 
information, which seriously affects the accuracy of application. Key pose frames can effectively express the video and reduce 
the amount of computation. Furthermore, bone data contains richer information than RGB image. Therefore, this paper 
proposes an action recognition approach based on adaptive partition and association of key-frame nodes. Firstly, it constructs 
an adaptive pooled deep network to evaluate frames importance and obtain key pose sequence. Then, it establishes association 
between nodes in unnatural connection state by self-learning model. Finally, it applies the improved spatio-temporal 
information on STGCN and uses SoftMax for classification. This paper evaluates the effectiveness of the proposed approach 


nu by comparing with several typical technologies on the open-source and large-scale datasets of NTU-RGB+D and Kinetics. 
. Experimental results show that it can reduce the amount of redundant data and retain key action information, and obtain higher 
average accuracy by 0.63% ~ 11.8196 than the compared methods. 
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0 ”引言 表示 ， 具 有 丰富 的 空间 域 和 时 域 信息 ， 加 强 了 相 邻 关节 之 间 
S: 的 相关 性 03。 如 Vemulapall 等 人 04 将 骨骼 表达 成 一 系列 的 刚 

近 些 年 国内 外 学 者 们 提出 了 大 量 的 视频 行为 识别 方法 ， 体 运 动 ， 且 用 一 种 特殊 的 欧式 群 表示 刚体 间 的 3D 几何 关系 

并 给 出 一 些 公开 的 行为 数据 集 053。 图 卷 积 神经 网 络 (graph 并 映射 为 李 群 空间 中 的 点 ， 使 用 SVM 可 以 获得 较 好 的 分 类 
convolutional network, GCN) 起源 于 卷 积 神经 网 络 (convo- 效果 。 随 着 深度 学 习 的 成 功 应 用 基于 深度 学 习 的 骨骼 建 模 方 
lutional neural network, CNN) [1。 它 将 神经 网 络 进 行 一 般 化 法 迅速 兴起 ， 越 来 越 多 的 专家 学 者 使 用 骨骼 模 态 来 进行 人 体 
的 处 理 后 应 用 于 拓扑 图 结构 中 ， 以 代替 图 的 正则 化 、 核 方法 检测 和 行为 识别 6720。Wang SEANS 提出 一 种 基于 视频 的 行 
等 传统 的 拓扑 图 处 理 方法 ， 其 卓越 的 性 能 在 视频 应 用 领域 得 为 识别 模型 (temporal segmentnetwork，TSN)。 该 模型 可 以 将 
到 广泛 关注 外 :中 。Caramalau 等 人 0 将 GCN 应 用 于 人 体 行为 稀疏 时 间 采 样 策略 和 视频 监督 相 结 合 ， 使 用 整个 视频 支持 有 
识别 任务 ， 通 过 序列 图 卷 积 网 络 主动 学 习 训练 ， 并 应 用 于 训 效 的 学 习 。Qiu 等 人 09 结 合 CNN 和 3D 信息 提出 了 一 种 利用 
练 数据 和 采样 处 理 ， 以 识别 并 丢弃 多 余 的 未 标注 数据 流 得 到 骨骼 序列 构建 关节 的 三 维 轨迹 进行 三 维 动作 识别 。 该 方法 首 
有 效 的 标注 样 例 。 该 方法 在 后 续 的 识别 、 分 类 、 预 测 等 系列 先 将 每 个 骨架 序列 转换 为 三 个 片段 ,每 个 片段 由 若干 帧 组 成 ， 
任务 中 发 挥 出 了 比 传统 方法 更 好 的 性 能 。 然后 利用 深度 神经 网 络 进行 时 空 特征 学 习 。Yan 等 人 09 将 图 
相 比 于 其 他 模 态 在 面 对 复杂 背景 、 多 视角 以 及 遮挡 时 会 卷 积 网络 扩 展 到 时 空 图 模型 (spatial temporal graph convo- 
出 现 鲁 棒 性 不 足 ， 同 时 还 会 产生 更 多 的 计算 消耗 ， 人体 骨骼 lutional networks, STGCN), 设计 出 用 于 行为 识别 的 骨骼 序列 
信息 更 为 清晰 直观 且 不 易 受到 其 他 外 界 因 素 的 干扰 ， 具 有 相 通用 表示 。STGCN 模型 将 节点 对 应 于 人 体 的 关节 , 构建 多 层 
对 良好 的 适应 性 能 1。 一 般 使 用 2D 或 者 3D 坐标 进行 骨骼 时 空 图 卷 积 并 让 信息 沿 着 空间 和 时 间 两 个 维度 进行 整合 。 该 
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录用 定稿 刘 锁 兰 ， 等 : 基于 关键 帧 节点 自 适应 分 区 与 关联 的 行为 识别 算法 第 39 卷 第 10 期 
方法 在 测试 动作 识别 数据 集 上 取得 了 较 大 的 性 能 提升 ， 其 成 识别 的 贡献 度 进行 有 效 衡 量 ， 以 提取 对 识别 更 具 信息 量 的 关 
果 引 起 了 广泛 关注 。 在 此 基础 上 , 文献 [20] 根 据 人 体 关 节 和 和 骨 键 姿态 帧 将 有 助 于 降低 计算 量 。 依 据 此 ， 本 文 设计 了 一 种 深 
骼 之 间 的 运动 相关 性 ， 将 骨骼 数据 表示 为 有 向 无 环 图 ， 设 计 度 强 化 子 网 络 来 自动 学 习 和 获知 序列 中 不 同 帧 的 重要 性 ， 使 
了 一 种 有 向 图 神经 网 络 (directed graph neural networks ， 重要 的 帧 在 分 类 中 起 更 积极 的 作用 ， 以 降低 计算 复杂 度 。 
DGNN)， 用 于 提取 关节 、 骨 骼 及 其 相互 关系 的 信息 ， 并 根据 此 外 ， 研 究 表明 基于 骨骼 的 行为 识别 中 每 个 关节 点 对 动 
是 取 的 特征 进行 预测 ,同时 ,为 了 更 好 地 适应 动作 识别 任务 ， 作 判 别 并 非 同 等 重要 。 一 些 行为 动作 会 跟 某 些 关 节点 构成 的 
在 训练 过 程 的 基础 上 对 图 的 拓扑 结构 进行 了 自 适 应 性 表示 ， 集合 密切 相关 ， 而 男 一 些 行为 动作 则 会 跟 其 他 一 些 关 节点 构 
其 性 能 得 到 显著 改进 。Cheng 等 人 在 文献 [21] 中 结合 CNN 的 集合 有 关 。 以 “ 打 电 话 ? 为 例 ， 主 要 与 头 、 肩 膀 、 手 肘 和 
中 的 shift 结构 ， 将 其 引入 到 GCN， 提 出 了 一 种 改进 的 移 位 手腕 这 些 关 节点 密切 相关 ， 而 与 腿 部 关节 的 关系 很 小 ; 但 


服 这 两 个 缺点 。Shift-GCN 不 使 用 传统 的 图 卷 积 操作 , 而 是 。 计算 才能 完成 。 依 据 这 一 点 ， 本 文 根 据 序列 当前 关键 帧 时 
新 的 移 位 图 操作 和 轻 量 点 卷 积 组 成 ， 其 中 移 位 图 操作 为 空 ” 信息 和 历史 信息 优化 节点 分 区 模型 ， 


图 进化 网 络 (shift graph convolutional network，Shift-GCN) 来 对 于 “ 走 ”“ 踢 ”这 类 动作 的 判别 就 主要 通过 腿 部 节点 的 关 
民 
xc 


和 时 间 图 提供 了 灵活 的 感受 野 ， 同 时 在 时 序 TCN 上 进 建立 非 自然 连接 状态 下 的 关联 ， 实 现 序 列 中 节点 关联 可 以 


通过 构建 节点 多 级 分 


E Dd HROGR GE 


fT CNN 的 sh 入 操作 , 极 大 地 减少 了 模型 参数 和 计算 复杂 度 。 时 间 自 适应 优化 ， 以 提升 模型 鲁 棒 性 并 提高 识别 精度 。 
文献 [22] 描 述 了 一 种 新 的 多 流 注意 增强 自 适应 图 卷 积 神经 网 UN 

2 (multi-stream adaptive graph convolutional networks, MS- 2 TUBE 

AAGCN) 用 于 骨架 的 动作 识别 。 图 拓扑 可 以 基于 端 到 端的 输 本 文采 用 基于 STGCN 的 方法 进行 人 体 行为 识别 。 为 减 


入 数据 统一 地 或 单独 学 习 。 这 种 数据 驱动 的 方法 增加 了 模型 ” 少 匈 余 信息 对 识别 效率 的 影响 ， 在 STGCN 模型 基础 上 提出 


的 灵活 性 , 使 其 更 具 


E 


性 ,以 适应 不 同 的 数据 样本 。 此外， 了 视频 关键 帧 提取 及 骨架 节点 关联 构建 方法 。 首 先 将 视频 数 


要 的 关节 、 


通过 时 空 注意 力 模 块 进一步 增强 自 适应 图 卷 积 层 ， 使 模型 更 。 据 送 入 深度 强化 子 网 络 学 习 和 获知 序列 中 不 同 帧 的 重要 性 得 

重要 上 贞 和 特征 。 在 多 流 框架 下 ， 对 关节 和 骨 ”到 关键 信息 帧 ， 并 通过 姿态 估计 提取 骨骼 信息 。 甚 次， 通过 
散 的 运动 信息 进行 同步 建 模 ， 提 高 了 识别 准确 率 。Zhao 等 人 ”节点 自学 习 模型 关联 序列 中 不 同 节 点 ， 以 衡量 节点 运动 变化 
在 文献 [23] 中 提出 采用 基于 节点 加 权 贡 献 的 关键 帧 提取 方法 


对 识别 的 影响 。 在 STGCN 模块 中 通过 结合 关键 节点 时 间 和 


并 结合 STGCN 模型 进行 多 特征 融合 ， 可 以 有 效 提高 识别 准 ” ”空间 信息 生成 更 高 层次 的 特征 图 ， 最 后 通过 SoftMax 分 类 器 
确 率 。2021 年 Liu 等 2 针对 人 体 骨 架 数据 提出 了 一 种 自 适 应 ”进行 动作 分 类 识别 。 


注意 力 记 忆 机 制 的 图 卷 积 网 络 (adaptive attention memory 2.1 关键 帧 判别 与 提取 
graph convolutional networks，AAM-GCN) 进 行动 作 识别 ， 且 视频 相 比 于 静态 图 像 来 说 包含 更 加 丰富 信息 。 但 实际 一 
在 此 算法 中 使 用 注意 机 制 从 骨架 序列 中 提取 关键 帧 ， 以 获取 ” 上 段 视频 中 可 能 大 部 分 画面 并 不 包含 重要 的 动作 判别 信息 (如 
更 具 鉴 别 力 的 时 间 特 征 ， 静止 )， 如 果 把 这 些 帧 图 像 也 放 入 网 络 训 练 ， 则 会 对 训练 过 程 
综 上 研究 可 以 发 现 ， 在 GCN 模型 基础 上 结合 时 间 和 空 ” 起 反 人 作用。 因此， 如何 有 效 判 别 宛 余 信息 并 提取 关键 帧 是 该 
闻 维 度 信息 广泛 应 用 于 基于 骨架 的 人 体 行为 识别 研究 23-266。 ”领域 重要 的 研究 内 容 。 但 是 ， 现 有 的 关键 帧 提取 算法 没有 
同时 , 由 于 视频 中 大 部 分 帧 图 像 都 不 包含 所 做 的 运动 信息 ( 静 ground truth， 因 此 需要 根据 序列 间 的 关联 自动 生成 关键 帧 。 
止 )， 如 果 把 这 些 也 放 入 网 络 进行 训练 , 会 对 训练 过 程 起 到 反 本 文 提出 的 关键 姿态 帧 判别 与 骨架 提取 流程 如 图 1 所 示 。 
向 作用 。 因 此 ， 为 排除 干扰 和 信息 元 余 问题 ， 关 键 帧 提取 成 a) 通 过 采样 从 原始 RGB 视频 序列 中 抽取 初始 化 的 M. 帧 图 像 ; 
为 基于 视频 行为 识别 的 重要 预 处 理 环 节 。 b) 获 取 预 选 帧 图 像 时 空 特 征 ， 并 送 入 多 层 感 知 网 络 模块 计算 


基于 STGCN 的 人 体 行为 识别 , 


贞 间 特征 差 预 测 其 对 动作 识别 的 重要 性 ;，c) 计 算 预 选 帧 深度 


竺 征 ， 在 池 化 环节 以 当前 池 化 特征 和 帧 间 特 征 差 作 为 输入 ， 


STGCN 是 基于 图 卷 积 神经 网 络 并 加 强 了 时 空 联系 的 一 这样 可 以 让 网 络 关注 之 前 未 关注 到 的 特征 进而 判断 是 否 为 关 


姿态 估计 获得 关键 帧 骨 


FE， 并 通过 强化 学 习 预 测 


类 模型 ， 在 基于 骨架 的 动作 识别 中 取得 了 显著 的 性 能 。 然 而 ，” 键 帧 ， 得 到 仅 为 关键 帧 的 自 适 应 池 化 向 量 ww ; qd) 经 深度 网 
GCN 模型 本 身 仍 存在 一 些 问 题 。 比 如 ,在 所 有 模型 层 和 输入 ” 络 输 出 关键 图 像 帧 ， 采 用 Openpose 

数据 上 对 图 的 拓扑 结构 进行 启发 式 设 置 和 固定 ， 这 可 能 不 适 架 。 所 提 模 型 旨 在 利用 帧 的 时 空 特 条 

用 于 GCN 模型 的 层次 结构 和 动作 识别 任务 中 数据 的 复杂 性 项 间 差 异 来 表达 帧 的 重要 性 ， 能 有 效 加 强 帧 的 判别 性 ， 去 除 
与 多 样 性 ,虽然 双流 或 多 流 网 络 进行 了 空间 邻接 矩阵 的 学 习 ， ”元 余 信息 。 

或 通过 引入 增 量 式 自 适应 模块 来 增强 空间 图 的 表达 能 力 ， 但 "T 关键 由 判别 


性 能 仍然 受到 模型 结构 本 身 的 限制 。 此 外 ，GCN 方法 通常 
计算 复杂 度 相当 高 ， 


一 个 动作 样本 的 计算 复杂 度 往往 超过 15 


E ^ A |. 
S Openpose, *|N *4 Y , 
| 


GFLOPs'?l, 尤其 随 着 增 量 模块 、 多 流 融合 策略 ， 以 及 有 向 无 = 

环 图 网 络 等 的 应 用 ， 使 得 计算 复杂 度 急剧 增 大 ， 而 且 提 取 不 i LBL 

pA aun —— — COSS. LI E E ome Gian 
通常 ， 在 进行 视频 动作 识别 时 将 序列 中 的 所 有 帧 视 为 同 图 1 基于 自 适应 池 化 网 络 的 关键 姿态 帧 判别 模型 


ü 


重要 ， 这 使 得 不 


能 聚焦 于 最 具 代 表 性 的 帧 导致 计算 量 居 高 Fig. 1 Key pose discrimination model based on adaptive pooling network 


A 
sT 
不 


。 大 量 的 研究 工作 已 证 明 从 视频 中 提取 关键 帧 图 像 再 进 设 训练 样本 X={%,}， 尺 为 第 i 个 训练 图 像 ，X 对 应 的 动 


有 效 使 
动作 中 ， 以 “ 走 ” 为 作 
刻 也 呈现 出 不 同 的 姿态 。 在 帧 序列 中 目标 对 象 有 时 是 直立 的 ， 出 中 仍 可 能 包含 大 部 分 元 余 信 息 。 在 池 化 环节 中 引入 权重 参 
于 动作 的 连贯 性 导致 连续 几 数 ， 则 可 有 效 突出 关键 帧 ， 同 时 弱化 次 要 帧 的 影响 。 因 此 通 
贞 对 动作 识别 的 贡献 存在 元 余 。 因 此 ， 如 能 就 帧 图 像 对 动作 ”过 设计 一 个 具有 注意 力 机 制 的 多 层 感 知 网 络 模型 预测 每 个 初 


行人 体 行为 分 析 ， 在 降低 元 余数 据 对 计算 影响 的 同时 ， 仍 能 ”” 作 类 别 标签 为 。 从 训练 序列 中 通过 采样 得 到 的 初始 预选 帧 


姿势 信息 来 描述 运动 信息 ， 表 达 行 为 类 别 。 在 日 常 。” 集合 表示 为 {4} ，i 与 j 为 采样 关联 。 


其 他 帧 中 即便 出 现 姿势 变化 但 


上， 此 过 程 包含 多 个 状态 ， 人 体 在 各 个 时 ” 征 向 量 为 Wa) 。 由 于 采样 倾向 于 “5 


通过 深度 网 络 获得 帧 特 
多 勿 少 ”， 因 此 卷 积 层 输 
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录用 定稿 刘 锁 兰 ， 
始 预选 帧 的 重要 性 ， 定 义 如 下 : 

À(aj) = f, (x,t -1),ó(a;)) (1) 

3X0) rB fo OO 为 采用 注意 力 机 制 的 计算 函数 ， @®G%,1-D 


表示 该 帧 在 原始 序列 


FP 其 前 一 帧 图 像 的 特征 ,学 习 过 程 如 下 : 


G(x,,t) =A(x,t -DBX,t -1) * A(a;)9(a;) 


Q) 


Ala) €10,1] 表示 预选 帧 重要 性 权 值 。 


自 适应 池 化 过 程 不 仅 考虑 了 预选 帧 的 深度 特 生 


JE > 且 利 用 


图 像 yi [8] es 息 衡量 Ld 
键 帧 的 池 化 向 量 Fea 
以 便 后 续 行为 识别 任务 。 


2.2 节点 关联 模型 


在 对 视 


Gz(s,v), 


Kinetics 数据 集中 ， 采 用 Openpose 提取 18 个 关节 点 ， 则 
N=18)。 人 体 节 点 自然 关联 和 固定 的 分 区 方案 通常 不 
地 表达 一 个 序列 中 发 生 的 所 有 行为 动作 。 
型 ， 根 据 序列 内 容 动 态 优化 分 区 ， 不 仅 可 


关联 学 习 模 


频数 据 进行 关键 信息 帧 姿态 估计 后 构造 图 
其 中 seR" 为 包含 了 N 个 关节 点 的 三 维 坐标 (如 


所 含 信息 
。 经 姿态 估计 处 理 得 到 关键 帧 骨架 序列 


对 识别 的 重要 性 ， 得 到 仅 为 关 


/弱化 一 定 邻 域 范 置 


联 的 节点 之 间 产 生 关 联 。 
基础 上 通过 建立 节点 关联 学 习 模型 为 节点 选择 


在 GCN 
分 区 ， 以 增强 模型 的 自 适 应 


联 


如 式 (4) 所 示 。 


通过 将 关节 点 的 自 连 接 设置 为 0 可 避免 自 连接 对 动作 判 


0, 
Sj -18. 
p. 


内 节点 间 的 连接 , 而 且 可 以 使 没 


=W, fa C, +T, * Q.) 
其 中 Ww, BUB, S. 表示 基础 邻接 矩阵 即 关 节点 之 间 的 自然 连 
接 。 单 帧 骨架 图 中 的 关节 s 和 5 通常 存在 内 在 关联 和 外 在 关 
种 自然 依赖 关系 , 可 以 通过 设置 不 同 的 参数 来 进行 区 分 ， 


能 很 好 
本 文 设计 一 种 节点 
以 增强 
直接 关 


性 。 
(3) 


i=j 
connected 


(4) 


disconnected 


别 的 影响 。 内 在 关联 权重 用 


接 且 边 距离 在 动作 发 和 9 


E 过 程 中 


表示 ， 指 的 是 


为 过 程 中 却 存 在 较 大 的 联系 。 


2 来 表示 相 邻 节点 之 间 的 物理 连 
保持 不 变 。 外 在 关联 权重 用 P 


节点 之 间 本 身 不 存在 物理 连接 的 关系 ， 但 在 行 


右手 的 自然 物 


关系 对 于 
3B A BEAR ER, 


当前 状态 图 


识别 此 动作 
S, 亦 可 通过 网 络 学 习 数 ] 
点 之 间 是 否 存在 联系 的 同时 ， 
T, 表示 时 间 约 束 ，Q; 表示 注 


里 连接 


不 存在 ， 但 是 双手 内 


例如 “ 打 高 尔 夫 球 ”， 左 手 和 


k 同 握 住 球 杆 这 个 


中 一 节点 与 其 他 


和 否 连 接 和 连接 的 强度 。 因 此 算法 实现 的 关键 是 对 节点 对 
判别 动作 的 实际 传 入 和 传 出 得 到 依赖 权 值 ， 计 算 如 下 : 


有 非常 重要 的 意义 。 作 为 可 训练 的 权 


进行 优化 ， 在 表达 节 
对 关联 的 强 弱 也 能 进行 表达 。 
意 力 矩阵 。 利 用 注意 力 机 制衡 量 
节点 的 实际 依赖 关系 ， 即 判断 是 
(si,5)) 


EG, ds ee Gi s yGj) 
8:495) ———MH——————— 

Y Yero (5) 
eO fI yo 分 别 计算 当前 节点 相对 于 参考 源 点 的 角度 和 


位 置信 息 。 


为 减少 参数 量 、 


合 ， 可 以 通过 利 


进一步 计算 ， 


节点 的 轨迹 对 


降低 计算 复杂 度 ， 以 及 防止 过 拟 
王 意 两 个 节点 间 的 注意 力 值 


并 将 时 间 维 


3 ”实验 与 分 析 


3.1 


视频 样 
hands 等 


在 内 


实验 数据 集 与 设置 
1) NTU-RGB+D Jg fiet, 


的 40 类 


度 融 合 到 2 中。 
要 根据 动作 类 别 标签 预定 义 多 级 分 区 与 关联 。 如 提取 18 个 
关节 点 ， 则 关联 最 多 可 达 7 级 。 
的 2 级 分 区 和 关联 示意 图 。 


在 训练 过 程 中 通常 


图 2 所 示 为 以 肘 部 节点 为 例 


该 数据 集 共 采集 了 56880 个 


本 ,包含 drink water, throw, clapping, phone call, shaking 
日 常 行为 动作 ,9 类 与 健康 相关 的 动作 ， 


等 : 基于 关键 帧 节点 自 造 应 分 区 与 关联 的 行为 识别 算法 


, 


ChinaXiv 合 作 期 刊 
第 39 卷 第 10 期 


以 及 11 类 双人 互动 动作 。 数据 采用 三 个 不 同 水 平角 度 (-45?、 
0°* 和 45°) 放 置 的 微软 Kinect v2 传感器 采集 40 个 年 龄 10 至 
35 岁 的 人 员 得 到 。 每 个 动作 执行 人 做 两 遍 相同 的 动作 。 数 据 
形式 包括 深度 信息 、3D 骨骼 信息 、RGB 帧 以 及 红外 序列 。 


e Pe e e @ PAN 
e * . É s | 
© -| . MX o 
* € * € * 6 
© è © e e 9 
Ca) 骨架 图 O) 人 体 自 然 结 构 分 区 示意 〈c) 2 级 分 区 红色 虚线 ) 及 


(黑色 虚线 ) 关联 示意 图 HEER) 

图 2 节点 2 级 分 区 和 关联 示意 图 
Fig.2 Node level-2 zoning and association diagram 

数据 集 提供 了 两 种 不 分 划分 标准 。a)Cross-Subject 将 ID 
为 1, 2, 4, 5, 8, 9, 13, 14, 15,16, 17, 18, 19, 25, 27, 28, 31, 34, 
35,38 共 20 个 采集 人 员 的 40320 个 视频 作为 训练 集 ， 其余 为 
测试 集 共 16560 个 样本 ; b)Cross-View 按 相 机 编号 划分 训练 
集 和 测试 集 。 相 机 1 采集 的 18960 个 样本 作为 测试 集 ， 相 机 
2 和 3 采集 的 37920 样本 作为 训练 集 。 

2)Kinetics-400 数据 集 申 。 该 数据 集 采集 自 YouTube, Zj 
300000 个 视频 包含 了 abseiling、applauding、feeding fish、 
opening bottle、playing piano、yoga 等 在 内 的 人 与 物体 交互 动 
作 ， 以 及 人 与 人 的 互动 动作 等 。 涵 盖 400 类 动作 ， 每 类 动作 
至 少 有 400 个 视频 样本 ， 每 个 视频 持续 约 10 秒 。 
为 降低 视频 参数 差异 性 对 后 续 处 理 的 影响 ， 本 文 将 所 有 
视频 帧 分 辩 率 调整 为 340x256, 同时 将 帧 率 转换 为 30 frame/s， 
示例 如 图 3 所 示 。 


scar iL iis UA 
T TA P a 
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图 3 NTU-RGB+D 和 Kinetics-400 数据 集 示例 

Fig.3 Samples from NTU-RGB+D and Kinetics-400 datasets 
3.2 结果 与 分 析 
3.2.1 关键 帧 提取 实验 设置 与 结果 分 析 

在 关键 帧 判别 与 提取 环节 ,设置 MLP 为 四 层 感知 网 络 ， 
分 别 采 用 双 曲 正切 函数 tanh 和 最 后 一 层 sigmod 函数 为 激活 
函数 。 E a a 
决 梯度 消失 问题 。 将 池 化 向 量 的 初始 状态 设置 为 与 第 一 帧 的 
特征 向 量 m Eo 了 其 前 一 帧 的 特征 向 量 差 作为 
自 适 应 模块 的 输入 。 

隐藏 层 神 经 元 数量 直接 影响 感知 网 络 的 性 能 和 关键 帧 提 
取 效 果 ， 过 少 会 导致 准确 度 欠 佳 ， 过 多 导致 网 络 过 拟 合 、 收 
想 等 问题 。 同 时 考虑 到 不 同 数据 集 行为 类 别 数量 和 样 


SIUS TRAE 
本 间 的 差异 性 ， 本 文 对 隐藏 层 神经 元 数目 Nw 进行 动态 估算 


Wi » 
其 中 ，N 和 N, 分 别 表示 输入 层 和 输出 层 神 


"0O*(N, +N,) ° 

经 元 数目 。Nome 为 训练 样本 数 。 调节 参数 6 取 值 范围 为 1~10。 
为 了 验证 所 提 关 键 居 提取 算法 的 有 效 性 ， 与 常用 的 两 种 
算法 进行 对 比 , 包 括 基 于 运动 分 析 的 光 流 法 和 视频 聚 类 算法 。 
， 光 流 法 每 次 取 局 部 运动 光 流 量 最 小 值 作为 所 要 提取 的 
关键 帧 ， 育 类 法 使 用 k-means 取 距 离 聚 类 中 心 距离 最 小 者 为 
关键 帧 。 实 验 随 机 选取 Kinetics 数据 集中 的 robot dancing 视 
频 片 段 为 例 进行 说 明 ， 结 果 如 图 4 所 示 。 该 视频 演示 动作 持 


TT 


H. rH 
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续 约 10 秒 , 图 像 序列 共 包含 301 帧 。 聚 类 算法 提取 第 2, 19， 

34 等 共计 76 帧 为 关键 帧 ， 光 流 法 提取 第 4，48，79，107 等 
共 16 帧 图 像 作 为 关键 帧 。 本 文 算法 分 别提 取 第 18, 91, 199, 

263, 268 共 5 帧 图 像 为 关键 帧 。 对 比 三 种 方法 可 见 聚 类 法 提 
取 效 果 较 差 ， 尽 管 压 缩 率 达到 25.1% 但 仍 存在 大 量 宛 余 ， 主 
要 原因 在 于 聚 类 初始 化 中 心 数 受 人 为 因素 干扰 严重 ， 且 阔 值 
大 小 的 选择 也 直接 导致 选取 的 关键 帧 数 不 稳定 。 光 流 法 主要 
通过 计算 镜头 中 的 运动 量 来 反映 视频 数据 中 的 静止 状态 ， 医 
此 该 方法 对 视频 镜头 的 结构 选择 依赖 性 较 大 。 视 频 中 第 一 个 
动作 重复 多 次 出 现 , 本 文 算法 能 有 效 识别 并 去 除 重复 和 宛 余 ， 
压缩 视频 ， 提 取 5 帧 为 关键 帧 ， 但 却 完整 反映 了 视频 中 的 两 
个 关键 动作 。 姿 态 估计 也 能 有 效 检测 运动 目标 的 关键 关节 点 。 


Video Sequence 


MK. 


299 300 301 


| 
So >d - wa 


149 150 151 


法 法 关键 相 提取 结果 
199 -e c 
Em 


a0 
图 4 三 种 关键 帧 提取 方法 结果 及 本 文 关 键 帧 姿态 估计 结果 


Fig.4 Key frame extraction of three algorithms and pose estimation 


results used in this paper 
3.2.2 NTU-RGB+D(Cross-Subject) 行 为 识别 结果 与 分 析 
将 本 文 工 作 分 别 与 文献 [19] 中 STGCN 模型 在 uniform， 


distance 和 spatial 三 种 分 区 策略 下 的 识别 性 能 ， 以 及 笔者 先 
前 报道 的 研究 成 果 P5 进 行 了 比 对 。 在 节点 分 区 和 关联 算法 中 


设置 了 & 和 2 两 个 参数 ， 这 里 主要 通过 改变 参数 值 进行 实验 
得 到 模型 的 最 优 性 能 参数 。 分 别 取 值 =3 ，2=1 在 加 强 内 在 
关联 的 同时 适当 强化 外 在 关联 的 影响 ， 同 时 减少 因 连接 引起 
的 计算 量 。 主 要 采用 top-1 和 top-5 两 个 指标 对 模型 性 能 进行 
评估 。 对 比方 法 实验 结果 为 通过 设置 初始 学 习 率 0.01， 在 第 
80 个 epoch 时 减少 至 初始 值 的 0.1 倍 。 本 文 算法 识别 率 为 通 
过 重复 实验 动态 调整 每 轮 迭 代 相 适应 的 学 习 率 而 获得 。 算 法 
实验 环境 均 为 Ubuntu 16.04 系统 ，1060-6GB GPU ， 使 用 
PyTorch 深度 学 习 框 架 

图 5 和 6 分 别 为 在 NTU-RGB+D(Cross-Subject) 数 据 集 
的 top-1 和 top-5 的 识别 率 比 对 。 可 以 看 出 ,模型 随 着 训练 逐 
步 优 化 ， 本 文 方法 相 比 于 文献 [19] 和 [25] 在 top-1 和 top-5 上 
的 识别 性 能 均 有 一 定 程度 的 改进 。 在 第 50 个 epoch 时 top-1 
识别 精度 的 最 高 提升 达到 3.84%， 在 epoch X 45 时 top-5 iH 
别 精度 的 最 高 提升 达到 1.34%。 在 50 至 80 epoch 区 间 , 识别 
率 基本 达到 稳定 状态 分 别 约 为 82% 和 97%。 这 证 明 对 STGCN 
模型 改进 入 体 骨骼 节点 分 区 和 关联 可 以 有 效 提高 模型 的 识别 
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Fig. 5 


5  NTU-RGB-D(Cross-Subject) 上 TOP-1 实验 结果 
Experimental results of TOP-1 on NTU-RGB--D(Cross-Subject) 
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图 6  NTU-RGB-D(Cross- 


Subject) 上 TOP-5 实验 结 


Fig. 6 Experimental results of TOP-5 on NTU-RGB+D(Cross-Subject) 
3.2.3 NTU-RGB-4D(Cross-View) 行为 识别 结果 与 分 析 


对 结果 。 


表 1 为 在 NTU-RGB+D(Cross-View) 数 据 集 上 的 实验 比 
可 以 看 出 本 文 方法 相 比 于 文献 [19] 的 spatial 方法 在 
其 他 条 件 相同 下 的 测试 结果 在 top-1 和 top-5 上 的 识别 精度 分 


别提 升 约 2.82% 和 0.63%， 比 文献 [25] 的 最 优 识别 结果 提升 


5.21% 和 1.07%。 改 进 效 果 明 
Subject) 上 的 性 能 


显 优 于 在 NTU-RGB+D(Cross- 


测试 ， 主 要 原因 在 于 Cross-View 数据 集 相 


对 比方 法 相当 。 


对 Cross-Subject 仅 改 变 了 数据 采集 角度 ， 但 训练 和 测试 数据 
来 源 于 全 部 动作 执行 人 员 ， 极 大 地 降低 了 动作 识别 过 程 中 的 
类 内 差异 。 因 此 , Æ NTU-RGB4D(Cross-View) ERRI 3& 5j 


表 1 NTU-RGB+D(Cross-View) 实 验 结果 对 比 


Tab. 1 Comparison results on NTU-RGB+D(Cross-View) 
— STGCNI (spatial) 文献 [25] 本 文 算法 

top-1 top-5 top-1 top-5 top-l top-5 
5 56.96 89.49 59.17 91.04 60.94 92.71 
10 65.53 93.15 58.4] 89.78 67.02 94.63 
15 80.08 97.73 79.55 97.48 76.43 95.77 
20 80.68 97.70 81.80 97.84 $81.09 96.92 
25 83.63 98.27 81.32 97.86 84.37 97.08 
30 84.32 98.29 83.00 98.26 $87.51 97.82 
35 84.95 98.37 82.55 98.08 88.43 98.69 
40 85.90 98.54 83.5] 98.10 $88.72 99.17 


3.2.4 在 NTU-RGB+D 数据 集 上 与 其 他 算法 的 对 比 


将 本 文 算法 模型 与 当 
主要 选用 了 Lie Group04 ， 


Segment Networks)05 以 及 Clips-CNN-MTLNIUM?!, 
Group 方法 主要 将 人 体 动 作 表达 为 流 形 空间 的 特征 向 量 。 通 
过 建 模 捕捉 帧 间 时 空 关 联 ， 构 成 Lie Group 特征 序 负 
。Deep-LSTM 网 络 主要 由 三 层 LSTM 


形 曲线 ， 进 行 分 类 识别 


前 几 种 比较 典型 的 方法 进行 了 比较 ， 


Deep-LSTMI1, TSN(Temporal 


其 中 , Lie 


c— 


ADAM 


层 和 全 连 层 (FC Layer) 组 成 。 相 比 于 常见 的 双流 网 络 , TSN 的 


相 主 要 优势 在 于 解决 长 时 间 视 频 的 行为 判别 ， 


以 及 小 样本 导 


致 的 过 拟 合 问 题 。 同 时 该 方法 对 帧 序列 进行 稀 疏 采样 以 去 除 


性 能 。 尤 其 在 对 每 轮 进行 相 适应 的 学 习 率 设 置 之 后 ， 本 文 呈 


现 的 实验 结果 更 优 于 本 文 之 前 报道 的 工作 。 这 也 进一步 证 明 
了 合适 的 学 习 率 参数 对 模型 性 能 的 改进 有 着 积极 作用 。 


TRE 


列 划分 为 三 个 片段 


息 降低 计算 量 , ClipstCNN+MTLN 方法 首先 将 骨架 序 
然后 使 用 CNN 网 络 学 习 序 列 框架 中 的 


上 骨架 信息 ,并 使 用 多 任务 学 习 网 络 (MTLN) 联 合 处 理 生成 的 并 
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行 片段 ， 以 此 合并 空间 结构 信息 ， 识 别 视频 动作 。 根 据 数据 高 了 9.08% 和 11.81%。 但 是 在 该 数据 集 上 的 平均 识别 率 整 体 
集 划 分 特点 , 分 别 在 Cross-View 和 Cross-Subject 上 测试 了 识 扁 低 不 到 50%。 主 要 原因 在 于 该 视频 采集 大 多 基于 开放 环境 
别 效果 。 手持 设备 拍摄 不 稳定 性 高 ， 以 及 大 镜头 运动 造成 行为 模糊 


通过 表 2 可 以 发 现 本 文 算法 相 比 于 其 他 几 种 方法 中 效果 度 较 高 ， 导 致 骨架 提取 难度 大 。 因 此 ， 即 便 构建 节点 自 适 应 
最 好 的 ClipsCNN+MTLN 在 Cross-View 和 Cross-Subject 的 分 区 与 关联 模型 ， 识 别 准 确 率 仍 偏 低 。 
实验 方法 下 的 识别 精度 分 别提 高 了 3.92% 和 2.47%。 同 时 ， 表 4 Kinetics 数据 集 上 与 其 他 算法 的 实验 对 比 
对 比 几 种 识别 方法 可 以 发 现在 不 同 视角 下 的 识别 精度 整体 上 Tab.4 Comparison results with other three methods on Kinetics 
均 优 于 不 同行 为 主体 实验 下 的 识别 精度 ， 最 高 相差 7.13%。 Methods Top-1 Top-5 
这 主要 是 由 于 不 同 执行 人 即便 在 采集 相同 动作 时 仍 因 行 为 习 Deep LSTMDC 16.40 35.30 
惯 等 因素 导致 动作 存在 较 大 的 差异 ， 这 对 识别 的 准确 性 会 产 Feature CodingP? 19.53 36.71 
生 直 接 影响 。 其 次 ，Lie Group 方法 更 侧重 于 利用 骨骼 节点 的 TSNU*! 23.69 44.15 
空间 信息 而 弱化 了 时 序 信息 对 识别 的 影响 , 导致 效果 不 理想 。 本 文 算法 25.48 47.11 
Deep-LSTM 方法 的 优势 在 于 LSTM 网 络 对 时 间 序 列 处 理 的 4 ARE 
强大 能 力 ， 而 关键 帧 的 提取 则 弱化 的 时 间 特 征 ， 导 致 识别 率 RB 
不 佳 。Deep-LSTM，TSN 和 ClipsCNN*MTLN 方法 虽然 也 关 在 基于 视频 的 行为 识别 任务 中 ， 苑 余 信息 通常 会 导致 模 
注 了 运动 过 程 中 节点 的 时 序 信 息 ， 但 未 有 效 建立 节点 空间 关 ”型 训练 耗 时 长 且 对 资源 需求 高 ， 有 效 识 别 结果 的 准确 性 。 实 
联 且 忽略 了 平移 和 尺度 变化 对 识别 影响 。 相 比 于 本 文 方法 在 践 已 证 明 使 用 关键 姿态 帧 图 像 能 有 效 判 别 行为 类 别 。 基 于 此 ， 


压缩 视频 帧 的 同时 仍 通过 关键 帧 保留 行为 的 时 序 特征 ， 且 构 RLE STGCN 模型 基础 上 引入 深度 强化 子 网 络 来 学 习 和 评 
司 


建 非 关 联 节点 在 空间 的 逻辑 变化 ， 更 能 充分 表达 行为 的 时 空 ”“ 估 序列 中 不 同 帧 的 重要 性 ， 提 取 关 键 帧 以 表达 视频 ， 并 通过 
特性 ， 因 此 在 该 数据 集 上 表现 出 优越 的 识别 效果 。 姿态 估计 获得 骨骼 信息 。 通 过 节点 自 适应 模型 学 习 非 自然 连 
表 2 与 其 他 算法 的 top-1 最 优 结果 对 比 接 状 态 下 的 节点 间 关 联 ， 以 扩展 节点 的 运动 变化 对 识别 的 影 
Tab.2 Best results of top-1 with other compared methods 响 。 在 NTU-RGB-D 和 Kinetics 两 个 具有 挑战 性 的 大 规模 数 
Methods X-View X-Subject 据 集 上 的 测试 效果 相 比 于 几 种 主流 的 识别 技术 Feature 
Lie Group! 52.80 50.10 Coding, Lie Group, Deep LSTM, TSN 以 及 Clips-CNN-MTLN 
Deep LSTM"! 67.30 60.70 皆 呈 现 一 定 程 度 的 提升 。 值 得 注意 的 是 节点 关联 模型 虽然 能 
TSNI?I 75.41 78.27 建立 非 自 然 分 区 下 的 节点 联系 ， 但 为 了 降低 计算 复杂 度 关联 
Clips+CNN+MTLNI9 84.80 79.60 参数 2 和 2 的 选择 不 宜 过 大 。 本 文 为 在 重复 实验 条 件 下 选择 
本 文 算法 88.72 82.07 最 优 参数 ， 因 此 如 能 通过 建立 合适 的 目标 函数 进一步 自动 优 
32.5 Kinetics 行为 识别 结果 与 分 析 化 参数 选择 是 后 续 研 究 的 重要 内 容 。 
表 3 为 将 模型 改进 后 在 Kinetics 数据 集 上 的 实验 结果 。 参考 文献 ; 
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